AI自动生成创意视频:怎么让大模型助你一臂之力
发布时间:2023-11-01 10:38:41 所属栏目:动态 来源:
导读:随着全球科技的高速进步,人工智能已不再只局限于某些特定领域的应用,例如无人驾驶和数据处理等方面;现在在文化和娱乐产业中的人工智能使用也越来越普遍。那么,能不能让大语言模型与AI视频生成模型联手,为我们带
|
随着全球科技的高速进步,人工智能已不再只局限于某些特定领域的应用,例如无人驾驶和数据处理等方面;现在在文化和娱乐产业中的人工智能使用也越来越普遍。那么,能不能让大语言模型与AI视频生成模型联手,为我们带来高度个性化且极富创意的视频内容呢?本文将介绍如果通过输入几个关键词让大模型帮助我们生成创意视频。利用OpenAI、Hugging Face 开源库以及LangChain 等先进技术和方法进行开发,全面展示编解码的过程和所参考的技术与资源。 问题一:创意缺乏,如何解决? 对于大多数码农来说,创意并不是我们的强项。但是好消息是,现在有大语言模型能够在这方面帮助我们。通过合理地设置提示(prompt)或者利用现有的模板,我们甚至能生成具体的创意脚本。 我的初步想法如下: 1. 查找合适的大语言模型,例如GPT-3.5-turbo。 2. 设计或找到有效的文本提示模板。 3. 进行多轮的文本生成实验,直到满意为止。 问题二:如何生成视频? 生成创意文本后,下一步就是将这些文本转化为视频。由于我们并不是专业的视频制作人员,因此找到一个现成的、对用户友好的AI视频生成模型将会非常有帮助。 这也难不倒我,通过下面几步或许能够如愿以偿: 1. 搜寻开源的AI视频生成模型,到最大的模型库Hugging face上去找找一定会有收获。 2. 了解模型的输入要求和使用方式。 3. 实施初步的视频生成测试,如果需要,进行必要的调整。 首先,登录平台,在首页选择“Tasks”。 在Tasks中列出所有Hugging face上模型能够执行的任务,并且Hugging face 已经对所有的模型进行了分类。我们找到“Text-to-Video”的分类,点击进入。 在进去的页面会对这类模型进行简单地介绍。它会告诉你将文本输入到模型,输出的结果就是视频。我们点击右边的“Browse Models”按钮浏览所有的模型。 在展开的模型列表中,最上面的zeroscope_v2_576w 下载量有28.5K,看来用的人很多,而且星星数量也不少。 辅助工具:Langchain, PyTorch, Diffusers 解决两个大模型工具的问题之后,我们还需要一些帮手。 Langchain:作为一个大模型的脚手架,Langchain的Prompt Template可以帮助我更有效地设置和优化模型的输入提示。 PyTorch:作为一个强大的机器学习库,PyTorch可以用于定制一些特定功能,让我们更灵活地使用前两者。 Diffusers库:提供了诸如`DiffusionPipeline`和`DPMSolverMultistepScheduler`等工具,这些可以用于进一步优化视频生成过程。 Langchain主要用于优化大语言模型的输入和输出,PyTorch用于更高级的自定义和优化,而Diffusers库则可以用于进一步提升视频生成的质量。 通过选择工具和模型,我为自己构建了工具箱。每一项选择都是出于特定的考虑和需求,旨在解决我在创意视频生成过程中可能遇到的问题。这样,即使我不是一个“创意大师”,也有信心能制作出令人印象深刻的创意视频。 #这里是真正的用户输入 final_prompt = prompt.format(input='小猫 科技感 奔跑 ') response = llm(final_prompt) print (f"大语言模型的回应: {response}") 照例我们对代码进行简单介绍: 这段代码是用于生成创意视频概念的文本,具体通过与OpenAI的GPT-3.5-turbo大模型交互来实现。下面是代码各部分的解释: 1. 导入必要的模块: - `from langchain.llms import OpenAI`: 导入Langchain库中的OpenAI模块,用于与GPT-3.5-turbo交互。 - `from langchain import PromptTemplate`: 导入Langchain的PromptTemplate类,用于构建和格式化模型的输入。 2. 初始化大模型: - `llm = OpenAI(model_name="gpt-3.5-turbo")`: 初始化OpenAI的GPT-3.5-turbo模型。 3. 定义模板: - `template = """..."""`: 定义一个字符串模板,用于生成与大模型交互的最终提示(prompt)。 4. 创建PromptTemplate对象: - `prompt = PromptTemplate(...)`: 使用之前定义的字符串模板和输入变量来创建PromptTemplate对象。 5. 生成最终的提示: - `final_prompt = prompt.format(input='小猫 科技感 奔跑 ')`: 格式化PromptTemplate对象,插入真正的用户输入。 6. 与大模型交互: - `response = llm(final_prompt): 使用格式化后的提示与GPT-3.5-turbo模型进行交互,获取模型的输出。 7. 输出模型的响应: - `print (f"大语言模型的回应: {response}")`: 打印模型生成的创意文本。 复制 大语言模型的回应: "Technology-driven feline streaks across in a futuristic blur." 1. 大模型的回应是上面这句英文,我反正没有看出有什么创意,不过还是需要进行测试的。 在输入prompt的部分我纠结了很久,GPT的模型有时候会输出一些不必要的“废话”,最后我强制它只输出创意句子才满足了我的要求。因为这里的response需要传给视频生成的模型,所以无关的信息是越少越好。 # 从diffusers库中导入DiffusionPipeline和DPMSolverMultistepScheduler类 # DiffusionPipeline用于处理扩散流程,DPMSolverMultistepScheduler用于调度多步解算器 From diffusers import DiffusionPipeline, DPMSolverMultistepScheduler # 从diffusers.utils模块中导入export_to_video函数,用于导出生成的视频帧 from diffusers . ututils import export_to_video # 启用CPU离线模型加载,在有限的GPU内存下运行更大的模型 enable _() # 使用管道进行推理,得到生成的视频帧 # num_inference_steps设置为40,表示使用40步进行推理。 # 扩散模型需要通过扩散:添加噪声,收缩:去除噪声,最终生成数据。 # height和width设置生成视频的分辨率 # num_frames设置生成视频的帧数 video_frames = pipe(prompt, num_inference_steps=40, height=320, width=576, num_frames=24).frames # 使用export_to_video函数导出生成的视频帧,保存为视频文件 video_path = export_to_video(video_frames) 这段代码主要用于将大模型生成的创意文本转化为一段视频。代码涉及多个步骤和组件,下面是代码部分的解释: 导入必要库和模块 1.导入PyTorch库:PyTorch是一个用于机器学习和深度学习的开源库。 2.导入DiffusionPipeline和DPMSolverMultistepScheduler:这两个类分别用于处理扩散流程和调度多步解算器。 3.导入export_to_video函数:这个函数用于将生成的视频帧导出为一个视频文件。 4.加载预训练的DiffusionPipeline:使用`from_pretrained`方法加载预训练模型"cerspense/zeroscope_v2_576w"。 5.设置调度器:从当前管道的调度器配置中创建一个新的多步解算器调度器。 6.启用CPU离线模型加载:这一步可在有限的GPU内存下运行更大的模型。 7.设置输入提示:用大模型生成的文本(存储在变量`response`中)作为输入。 8.进行推理:使用DiffusionPipeline进行推理,生成视频帧。 - `num_inference_steps=40`:推理过程会经历40个步骤。 - `height=320, width=576`:设置生成视频的分辨率。 - `num_frames=24`:设置生成视频的帧数。 9.导出生成的视频帧:使用`export_to_video`函数将生成的视频帧保存为一个视频文件。 整体逻辑是:先初始化所需的各个组件和库,然后设置适当的参数和输入提示,最后执行推理和导出结果。 总结 通过整合不同的AI技术和工具,即便不是“创意大师”,我们也能生成富有创意和个性的视频内容。在实验过程中,我们遇到了一些问题,例如语言敏感性和输入效果,但通过不断调整和优化,最终实现了目标。这不仅为那些在创意产业中想要做出一番贡献但又缺乏信心的人提供了一条可能的路径,也展示了AI在创意领域的巨大潜力。通过合理地组合和应用这些先进的技术,我们完全有能力突破传统的限制,创造出更加惊艳和个性化的作品。这一切都源于一个强大的开发平台,它就是adobe公司的creativestudio。 (编辑:驾考网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
推荐文章
站长推荐
